
### 第一批数据：1:敏感语料（短语） 2:微博评论原文（senti100k,未处理）,各6754条，测试集比例0.1

import pandas as pd


df_1 = pd.read_excel('/Users/leo/Data/项目数据/文德数慧-文本内容审核/分类实验/数据/网络信息语料 文德 20210122.xlsx', sheet_name='测试集')
df_0 = pd.read_csv('/Users/leo/Data/项目数据/文德数慧-文本内容审核/分类实验/数据/weibo_senti_100k.csv')
df_0 = df_0.sample(n=6754).reset_index(drop=True)

assert len(df_0) == len(df_1)

data = pd.DataFrame(columns=['label','text'])

for i in range(len(df_0)):
    label = 0
    text = df_0.iloc[i]['review']
    data = data.append(pd.DataFrame({'label':[label],'text':[text]}),ignore_index=True)

for i in range(len(df_1)):
    label = 1
    text = df_1.iloc[i]['内容']
    data = data.append(pd.DataFrame({'label':[label],'text':[text]}),ignore_index=True)

data['label'] = data['label'].astype(int)
data = data.sample(frac=1).reset_index(drop=True)

data_test = data[:int(len(df_1)*0.2)]
data_train = data[int(len(df_1)*0.2):]

data_train.to_csv(r"/Users/leo/Data/项目数据/文德数慧-文本内容审核/分类实验/数据/data_bert/train.tsv",sep='\t',header=False,index=False)
data_test.to_csv(r"/Users/leo/Data/项目数据/文德数慧-文本内容审核/分类实验/数据/data_bert/test.tsv",sep='\t',header=False,index=False)
data_test.to_csv(r"/Users/leo/Data/项目数据/文德数慧-文本内容审核/分类实验/数据/data_bert/dev.tsv",sep='\t',header=False,index=False)
